这几天,有不少朋友留言,问了一些关于爬虫课的问题。
本来我打算,今天这篇文章,把所有问题,统一回答一下。
但写着写着,发现问题太多了,一下写不完。而且有的问题,比较复杂。
那就拆开来写,今天写看一个问题 ——
爬虫课可以抓 XX 吗?
能抓小红书吗?
能抓抖音吗?
能抓今日头条吗?
能抓到副业赚钱信息吗?
……
可能大家觉得,这是一个简单问题,答案会是一个确定的「是」,或者「否」。
但其实,这是一个复杂问题,答案取决于很多因素 ——因为用爬虫抓取某个网站,会消耗网站的流量成本。所以,有些网站会设置一些反爬虫机制,一旦检测到我们在使用爬虫,就会让你遇到「意外」,比如 ——隔一会,就需要输入验证码,才能继续
数据显示不限
数据显示乱码
限制登录
封掉账号
……
因为设置反爬虫,也需要成本。所以,除了一些大网站,其他绝大多数网站,都没有反爬虫。那,这是不是就代表:绝大多数网站,都是可以抓取的?比如,一个正常的网站,我技术比较熟练,就更可能抓成功。一个刚买了课,听了一遍,但没练习过的人,肯定抓不了。一个买了课,听了 3 遍,练习了 5 次的人,就更可能抓成功。所以,从这个角度上看,「能不能抓 XX 网站」,结果取决于你,而不是我。买完课程,只是看一遍,但不多练习,肯定是抓不了任何网站的。总体来说,如果你要抓取的信息,在电脑网页上,能用眼睛看到,它就大概率能抓到。比如,你要抓知乎一个作者,张三的文章信息,包括每篇文章的标题、链接、评论数、点赞数。而这个文章页面,也能「用眼睛」看到这个几个信息 ——我想抓同行的电话号码。
我想抓客户微信号。
我想抓房东电话。
那有同学会问:我要去哪个网页上看,有没有这些信息啊?
有反爬虫,只能说明,抓取比较困难,或者不能完全自动化,但可以半自动化,或者 60% 、70% 自动化。反正,肯定比手动,要提高 10 几倍效率吧。今天先介绍这些,大家有问题,可以留言,我改天再写一篇文章。
都看到这里了,你不关注一下嘛👇👇👇,我每天都更新哇,不更不是人!
今天是晚 9 点半睡觉,早 5 点起床写作第 454 天。